
** Export data to stata (faster loading easier merge)

import delimited "${dir8}/SISBEN/SISBEN_IV_20211012_anon.csv", clear 

*save "${dir8}/SISBEN/SISBEN_IV_20211012_anon.dta", replace

// get rid of duplictaes 
*use "${dir8}/SISBEN/SISBEN_IV_20211012_anon.dta", clear

gduplicates tag id_persona id_vivienda id_hogar, g(dup)

// the duplicates have very strange errors in several columns, ill drop them 

drop if dup > 0

compress

save "${dir8}/SISBEN/SISBEN_IV_20211012_anon.dta", replace

// Select variables 
*use "${dir8}/SISBEN/SISBEN_IV_20211012_anon.dta", clear

*** this data is massive, let just keep a set of variables to check and add as required

keep id_persona id_hogar id_vivienda cod_clase uso_vivienda tip_vivienda tip_mat_paredes tip_mat_pisos ind_tiene_energia tip_estrato_energia ind_tiene_alcantarillado ind_tiene_gas ind_tiene_recoleccion ind_tiene_acueducto tip_estrato_acueducto num_cuartos_vivienda num_hogares_vivienda ide_hogar num_cuartos_exclusivos num_cuartos_dormir num_cuartos_unicos_dormir tip_sanitario tip_ubi_sanitario tip_uso_sanitario tip_origen_agua ind_agua_llega_7dias num_dias_llega ind_agua_llega_24horas num_horas_llega tip_uso_agua_beber tip_elimina_basura ind_tiene_cocina tip_prepara_alimentos tip_uso_cocina tip_energia_cocina ind_tiene_nevera ind_tiene_lavadora ind_tiene_pc ind_tiene_internet ind_tiene_moto ind_tiene_tractor ind_tiene_carro ind_tiene_bien_raiz ind_gasto_alimento vlr_gasto_alimento ind_gasto_transporte vlr_gasto_transporte ind_gasto_educacion vlr_gasto_educacion ind_gasto_salud vlr_gasto_salud ind_gasto_serv_publicos vlr_gasto_serv_publicos ind_gasto_celular vlr_gasto_celular ind_gasto_arriendo vlr_gasto_arriendo ind_gasto_otros vlr_gasto_otros vlr_total_gastos num_habita_vivienda num_personas_posibles num_personas_hogar fec_nacimiento edad_calculada tip_estado_civil ind_conyuge_vive_hogar ide_conyuge ind_padre_vive_hogar tip_seg_social ind_tuvo_hijos tip_cuidado_niños ind_recibe_comida ind_leer_escribir ind_estudia niv_educativo grado_alcanzado ind_fondo_pensiones tip_actividad_mes num_sem_buscando tip_empleado ind_ingr_salario vlr_ingr_salario ind_ingr_honorarios vlr_ingr_honorarios ind_ingr_cosecha num_mes_ingr_cosecha vlr_ingr_cosecha ind_ingr_pension vlr_ingr_pension ind_ingr_remesa_pais vlr_ingr_remesa_pais ind_ingr_remesa_exterior vlr_ingr_remesa_exterior ind_ingr_arriendos vlr_ingr_arriendos ind_otros_ingresos vlr_otros_ingresos ind_ingr_estado vlr_ingr_fam_accion vlr_ingr_col_mayor vlr_ingr_otro_subsidio grupo nivel dup clasificacion

compress

save "${dir8}/SISBEN/SISBEN_IV_20211012_anon_usable.dta", replace


// merge with survey data 


cap frame create suved
frame change suved

tempfile surveyids

use "${dir8}/contact_info/DataDelivery_1_28-02-2022_encrypted/info_contacto.dta", replace 

rename * *_sf

rename (id_persona_sf id_vivienda_sf id_hogar_sf) (id_persona id_vivienda id_hogar)

destring  id_persona id_vivienda id_hogar, replace 

save `surveyids', replace 

frame change default

*use "${dir8}/SISBEN/SISBEN_IV_20211012_anon_usable.dta", clear

drop if !inlist(grupo, "A", "B", "C", "D")

merge 1:1 id_persona id_vivienda id_hogar using `surveyids', gen(survey)

save "${dir8}/SISBEN/SISBEN_IV_20211012_all.dta", replace

keep if survey == 3

save "${dir8}/SISBEN/SISBEN_IV_20211012_sampling_frame.dta", replace









